查看原文
其他

通关TPC-DS,中国数据库领域首破纪录诞生!

老鱼 老鱼笔记 2019-12-14

导语:“不服跑个分?”是一个老梗了。虽然,我们不能盲目崇信跑分,但跑分的确是一种比较直观反映软硬件性能的方式。不过,相比手机跑个分,数据库性能测试却要复杂的多……



最近,一家小公司颠覆了我们的认知!它完整的通过数据库界最难的一个测试标准TPC-DS,说是登顶了数据库领域的最高峰,并不为过,因为,此前的12年里,全球还没有任何一家公司成功过。


基准测试结果:

http://www.tpc.org/tpcds/results/tpcds_advanced_sort.asp


5月3日,这家公司还在自家的用户大会上发布了一系列创新产品:人工智能平台智子;一站式大数据平台产品:TDH6.0,分布式图数据库StellarDB,分布式闪存数据库ArgoDB;大数据云平台产品Data Cloud。

 

这家公司叫“星环科技”,创始人团队均出自Intel,或许Intel都不曾想到,五年前被砍掉的一个项目,居然成就了今天这个估值超过20亿,年营收超过2个亿,腾讯都抢着投钱下注的公司。


TPC测试委员会主席Raghu

 

我们首先回顾下事情的经过,5月3日,全球知名的数据管理系统评测基准标准化组织TPC宣布,星环TDH平台成为全球首个经过TPC官方审核的TPC-DS基准测试的数据平台,打破了该领域十二年来没有公司通过该项测试的局面,在世界范围内填补了该项技术的空白。



该基准测试使用思科UCS集成基础架构用于大数据和分析以及Transwarp Data Hub v5.1。

 

也许很多人不清楚TPC是个什么组织,TPC-DS是个什么测试,我们先行脑补。

 

众所周知,用户在选用平台时,面对的是一个缤纷繁杂的世界。用户希望有一种度量标准,能够量化计算机系统的性能,以此作为选型的依据。因此,诞生了众多标准化组织,而TPC就是其中之一。

 

TPC (事务性能管理委员会)是目前全球最知名的数据管理系统评测基准标准化组织。它的功能是制定商务应用基准程序(Benchmark)的标准规范、性能和价格度量,并管理测试结果的发布。

 

在过去二十多年间,该机构发布了多项数据库评测基准,如TPC-A、TPC-D、TPC-H和TPC-DS,在业界得到了广泛应用,相对而言,TPC在学术界和工业界拥有更强的影响力。

 

TPC-DS最早是用来衡量数据库分析性能的基准测试。它是2006年在第32届VLDB数据库会议上提出,有99个测试。但基准测试不仅仅涉及这些查询。测试过程和指标包括以下六个步骤(更多详细信息,请参阅TPC-DS规范):

 

数据负载测试(LD)

功耗测试(PT)在一个流中运行99个查询。

吞吐量测试1(TT1)在多个流中运行99个查询。

维护测试1(DM1)使用刷新功能更新数据库。

吞吐量测试2(TT2)在多个流中重新运行99个查询。

维护测试(DM2)使用刷新功能重新更新数据库。

 

这99个查询被定义为模板。每个查询都有几个参数,这些参数由dsqgen和SEED确定,具体为“被选为用格式mmddhhmmsss”表示的数据库加载时间结束时间(加载结束时间)的时间戳。这个时间戳“保证查询替换参数值在运行之前是未知的”。除参数外,不同流的查询顺序也不相同。下图显示了执行顺序。



 TPC-DS的性能结果取决于每个步骤的时间(生成SQL的时间不是结果的一部分)。根据TPC-DS测试流程,SQL语法和事务支持,优化,稳定性和可伸缩性被确定为DBMS的关键因素。

 

自从这个标准提出到今天,12年来,一直没有一个产品能通过。因此,被视为数据库界最难的一个测试标准,每隔一两年都会在数据库顶级会议上被讨论,但遗憾的是一直没有人能通过。

 

而TPC-DS测试模拟场景的数据量都比较大,一般10TB起步,传统数据库厂商多年都未通过,如IBM、Oracle、Teradata都曾做过尝试,但并没有成功。而大数据库厂商出现以后,为了衡量SQL和Hadoop谁更好,从 2014年开始,主流Hadoop厂商(如Cloudera, Hortonworks,Databricks)也开始试图攻破这一难题,每年都会去测上一次,也依然没有取得什么实质进展。

 

星环科技创始人、董事长孙元浩在接受笔者采访时表示:“我们参与测试的目的,并不是为了测试而测试,最初,我们的目的只是为了衡量我们的产品处于什么样的水平阶段,同时看看能不能通过测试。”

 

孙元浩说:“实际上,我们在2014年底就通过了第一阶段测试,而后面的步骤花了三年多的时间,去年7月,我们把测试结果提交给TPC组织,他们花了五个月的时间去审计结果。审计完以后再把所有测试结果和过程的全部公开在网上,接受质疑,所以它的难度是非常高的。”

 

目前,国外厂商对TPC-DS的攻关还处在第一阶段,孙元浩补充道。

 

由于SQL或事务支持限制,大多数基于Hadoop的厂商无法运行完整的TPC-DS基准测试。由于架构和优化限制,传统数据库厂商难以通过测试或无法取得良好结果,尤其是在大数据环境下,比如传统数据库由于架构限制,当有大量数据交换时,会导致单个节点瓶颈。为了降低影响,一些厂商会引入了特殊设备来处理数据交换,这使得系统的成本很高。

 

而星环能通过完整测试,毫无疑问的证明,在某些领域星环与国外厂商技术上的差距总体来说已经很小,甚至在某些方面已经超过了国外厂商。

END

延伸阅读

性能神化,聊聊Exadata 的“七宗罪”

Hadoop将死?Cloudera CEO怒怼Gartner

5320字长文!招商银行数据库架构探秘

AWS疯狂投入数据库意图改写规则!

为何云计算厂商都在搞数据库?

阿里云发布第三代数据库POLARDB的背后

泰山之巅对话•Oracle数据库掌门人

系列:知名互联网公司都在使用哪些数据库? 

四大行、股份制、城商行都在用什么数据库?

如何针对PB级大数据做毫秒级在线分析?

2017甲骨文云大会都说了些什么?

AWS CEO嘲讽甲骨文:没新公司会用Oracle

MongoDB 4.0支持多文档ACID意味着什么?

公众号

laoyubiji

老鱼,10年企业级老编一枚,采访过上百位CEO/CTO,你若有故事,欢迎联系!

欢迎订阅老鱼笔记

✬如果你喜欢这篇文章,欢迎分享到朋友圈✬

评论功能现已开启,灰常接受一切形式的吐槽和赞美☺

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存